AI资讯新闻榜单内容搜索- Transform

Jurgen、曼宁等大佬新作：MoE重塑6年前的Universal Transformer，高效升级

7 年前，谷歌在论文《Attention is All You Need》中提出了 Transformer。就在 Transformer 提出的第二年，谷歌又发布了 Universal Transformer（UT）。它的核心特征是通过跨层共享参数来实现深度循环，从而重新引入了 RNN 具有的循环表达能力。

来自主题: AI技术研报

10945 点击 2024-10-19 14:29

补齐Transformer规划短板又不放弃快速思考，田渊栋团队的Dualformer融合System 1和2双重优势

OpenAI ο1 模型的发布掀起了人们对 AI 推理过程的关注，甚至让现在的 AI 行业开始放弃卷越来越大的模型，而是开始针对推理过程进行优化了。今天我们介绍的这项来自 Meta FAIR 田渊栋团队的研究也是如此，其从人类认知理论中获得了灵感，提出了一种新型 Transformer 架构：Dualformer。

来自主题: AI技术研报

6097 点击 2024-10-16 15:56

图灵奖得主Yoshua Bengio新作：Were RNNs All We Needed?

自从 Transformer 模型问世以来，试图挑战其在自然语言处理地位的挑战者层出不穷。这次登场的选手，不仅要挑战 Transformer 的地位，还致敬了经典论文的名字。再看这篇论文的作者列表，图灵奖得主、深度学习三巨头之一的 Yoshua Bengio 赫然在列。

来自主题: AI技术研报

6186 点击 2024-10-14 15:42

扩散模型训练方法一直错了！谢赛宁：Representation matters

是什么让纽约大学著名研究者谢赛宁三连呼喊「Representation matters」？他表示：「我们可能一直都在用错误的方法训练扩散模型。」即使对生成模型而言，表征也依然有用。基于此，他们提出了 REPA，即表征对齐技术，其能让「训练扩散 Transformer 变得比你想象的更简单。」

来自主题: AI技术研报

5495 点击 2024-10-14 15:22

NeurIPS 2024 | Transformer长度外推，全新位置编码DAPE大幅提升模型性能

在当今的人工智能领域，Transformer 模型已成为解决诸多自然语言处理任务的核心。然而，Transformer 模型在处理长文本时常常遇到性能瓶颈。传统的位置编码方法，如绝对位置编码（APE）和相对位置编码（RPE），虽然在许多任务中表现良好，但其固定性限制了其在处理超长文本时的适应性和灵活性。

来自主题: AI技术研报

8577 点击 2024-10-12 14:29

清华微软最新力作：用物理学革新Transformer注意力，「大海捞针」精度暴涨30%！

随着诺贝尔物理学奖颁给了「机器学习之父」Geoffrey Hinton，另一个借鉴物理学概念的模型架构也横空出世——微软清华团队的最新架构Differential Transformer，从注意力模块入手，实现了Transformer的核心能力提升。

来自主题: AI技术研报

9485 点击 2024-10-10 14:24

Sigmoid注意力一样强，苹果开始重新审视注意力机制

注意力是 Transformer 架构的关键部分，负责将每个序列元素转换为值的加权和。将查询与所有键进行点积，然后通过 softmax 函数归一化，会得到每个键对应的注意力权重。

来自主题: AI技术研报

7919 点击 2024-09-19 11:10

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分，实现了更好的上下文理解。然而，注意力机制的缺点是计算开销大，会随输入规模而二次增长，Transformer 也因此难以处理非常长的文本。

来自主题: AI技术研报

9869 点击 2024-08-31 14:54

Jamba 1.5发布，最长上下文，非Transformer架构首次成功领先

Jamba是第一个基于 Mamba 架构的生产级模型。Mamba 是由卡内基梅隆大学和普林斯顿大学的研究人员提出的新架构，被视为 Transformer 架构的有力挑战者。

来自主题: AI资讯

9956 点击 2024-08-24 10:07

人工智能驱动的科学研究（AI4S）在药物研发与临床实践中的应用进展

在当今数字化时代，人工智能（artificial intelligence，AI）技术迅猛发展，尤其是生成式技术，如ChatGPT（chat generative pre-trained transformer），对人类生活的影响日益深远。

来自主题: AI技术研报

12557 点击 2024-08-19 17:38